[Day05] - Tokenizer - 逐字分析 ( Word By Word Tokenizer ) - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2022 iThome 鐵人賽

DAY 5

Modern Web

Parser 的深入研究系列第 5 篇

[Day05] - Tokenizer - 逐字分析 ( Word By Word Tokenizer )

14th鐵人賽

Tree

團隊週六 Podcast 團

2022-09-20 21:56:48

1182 瀏覽

分享至

昨天介紹了逐行解析 , 今天我們來說明另一個解析方法 逐字解析 吧 ~

解析方法二：逐字解析

逐字解析會需要經歷兩個步驟 , 才會變成像昨天一樣的 AST

將字串轉成 token 陣列 ( Tokenizer )
將 token 陣列轉成 AST ( Parser )

那經過 Tokenizer 後的 Token 陣列長什麼樣子呢 ?

舉個例子來說明好了：

昨天的 .env-sample 檔案：

# .env-sample file
# This is a comment
SECRET_KEY=YOURSECRETKEYGOESHERE # comment
SECRET_HASH="something-with-a-#-hash"
PRIVATE_KEY="-----BEGIN RSA PRIVATE KEY-----
...
Kh9NV...
...
#### 5678
-----END DSA PRIVATE KEY-----"

經過 Tokenizer 處理後，會變成下面的 Tokens：

[
  { "type": "comment", "value": "# .env-sample file" },
  { "type": "comment", "value": "# This is a comment" },
  { "type": "key", "value": "SECRET_KEY" },
  { "type": "equal", "value": "=" },
  { "type": "value", "value": "YOURSECRETKEYGOESHERE" },
  { "type": "comment", "value": "# comment" },
  { "type": "key", "value": "SECRET_HASH" },
  { "type": "equal", "value": "=" },
  { "type": "value", "value": "something-with-a-#-hash" },
  { "type": "key", "value": "PRIVATE_KEY" },
  { "type": "equal", "value": "=" },
  { "type": "value", "value": "-----BEGIN RSA PRIVATE KEY-----\n...\nKh9NV...\n...\n#### 5678\n-----END DSA PRIVATE KEY-----" }
]

如下方圖片所示